※ 본 문서는 PC 환경에 최적화되어있습니다.

1 목차

구상 중입니다.

2 데이터셋 위치

모든 데이터셋은 ‘./data/Datasets/’ 디렉터리 안에 있습니다.

3 정제 데이터셋

데이터셋 랭글링 과정을 담았습니다.

3.1 올리브영 매장 - SAMPLE

3.1.2 자료의 출처

해당 문서에서 정제한 올리브영 자료는 2020년 7월 19일 기준입니다.

해당 자료는 올리브영 매장안내에서 구득하였습니다.

올리브영 웹 페이지에 게시된 서울시 매장 목록을 사용할 목적으로 html 크롤링을 시도하였으나

위와 같이 스크롤을 모든 항목이 나타날 때까지 해야 되므로, 아래와 같이

스크롤을 하여 모든 항목을 불러온 뒤, 해당 요소를 ’Notepad++’을 사용하여 별도의 html 파일을 생성하였습니다.

3.1.3 정제 과정

먼저, 생성한 html을 블러왔습니다.

불러온 html에서 이름과 주소, 전화번호를 추출한 뒤, 하나의 데이터프레임을 만들었습니다.

            name                                                  addr
1   은행사거리점 서울특별시 노원구 한글비석로 264 중계그랜드프라자 1층
2       중계역점                서울특별시 노원구 동일로 1335 (상계동)
3 노원역사거리점                          서울특별시 노원구 노해로 480
4         노원점               서울특별시 노원구 상계로 65 105호,106호
5 홈플러스중계점 서울특별시 노원구 동일로204가길 12 홈플러스중계점 1층
6     상계보람점                      서울특별시 노원구 한글비석로 471
      ph.numb
1 02-938-9305
2 02-930-2952
3 02-934-5123
4 02-935-5290
5 02-948-6960
6 02-930-2532

위 데이터프레임을 바로 뒤에 언급할 지오코딩 툴을 사용하여 잘못된 주소를 바로잡았습니다.

다음의 표에서 검색도 가능합니다.

3.1.5 올리브영 매장 분포 시각화

3.1.6 정제 자료 저장

다음과 같이 ‘./data/Oliveyoung/’ 디렉터리에 데이터프레임을 저장하였습니다.